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上 节 课 ， 我 们 主要 介绍 了 在 有 noise 的 情况 下 ，VC Bound 理 论 仍然 是 成 立 的 。 同 时 ， 
介绍 了 不 同 的 error measure 方 法 。 本 节 课 介绍 机 器 学 习 最 常见 的 一 种 算法 : Linear 
Regression. 


一 、 线 性 回归 问题 


在 之 前 的 Linear Classification 课 程 中 ， 讲 了 信用 卡 发 放 的 例子 ， 利 用 机 器 学 习 来 决定 
是 否 给 用 户 发 放 信用 卡 。 本 节 课 仍然 引入 信用 卡 的 例子 ， 来 解决 给 用 户 发 放 信用 卡 额 
度 的 问题 ， 这 就 是 一 个 线性 回归 (Linear Regression) 问题 。 


Linear Regression Hypothesis 


| age | 23years | 
NTD 1.000.000 
current debt 200,000 





e。 For X = (Xo,X1,X2,:.. ,Xg) features of customer ， 
approximate the desired credit limit with a weighted sum: 


d 
| > WiXi 


i=0 


。 linear regression hypothesis: h(x) = w7x 


h(x): like perceptron, but without the sign | 





令 用 户 特 征集 为 q 维 的 入 ， 加 上 常数 项 ， 维 度 为 d 十 1， 与 权重 w 的 线性 组 合 即 为 
Hypothesis, 记 为 h(x)。 线 性 回归 的 预测 函数 取 值 在 整个 实数 空间 ， 这 跟 线性 分 类 不 


h(z) 一 巡天 





linear regression: 
find lines/hyperplanes with small residuals | 


根据 上 图 ， 在 一 维 或 者 多 维 空间 里 ， 线 性 回归 的 目标 是 找到 一 条 直线 (对 应 一 维 ) 、 
一 个 平面 (对 应 二 维 ) 或 者 更 高 维 的 超 平面 ， 使 样本 集中 的 点 更 接近 它 ， 也 就 是 残留 
误差 Residuals 最 小 化 。 

一 般 最 常用 的 错误 测量 方式 是 基于 最 小 二 乘法 ， 其 目标 是 计算 误差 的 最 小 平方 和 对 应 
的 权重 w， 即 上 节 课 介绍 的 squared error: 


popular/historical error measure: 
squared error err(y,y) = (7 — y)* 


out-of-sample 





N 
En(mw) = OP) pm) | E(w) = 8 (Wx)) 


n=1 
WTXn 


这 里 提 一 点 ， 最 小 二 乘法 可 以 解决 线性 问题 和 非 线性 问题 。 续 性 最 小 二 乘法 的 解 是 
closed-form， 即 X = (47 4)-147 9， 而 非 线 性 最 小 二 乘法 没有 closed-form， 通 常 


用 进 代 法 求解 。 本 节 课 的 解 就 是 closed-form 的 。 关 于 最 小 二 乘法 的 一 些 介绍 ， 请 参见 
我 的 另 一 篇 博文 : 


最 小 二 乘法 和 梯度 下 降 法 的 一 些 总 结 
二 、 线 性 回归 算法 


样本 数据 误差 Bi 是 权重 w 的 遂 数 ， 因 为 关 和 wy 都 是 已 知 的 。 我 们 的 目标 就 是 找 出 合适 
的 w， 使 i 能 够 最 小 。 那 么 如 何 计算 呢 ? 


首先 ， 运 用 算 阵 转换 的 思想 ， 将 i, 计算 转换 为 矩阵 的 形式 。 


N N 
1 1 
En(W) = N > (wxn — yn) 一 N > (Xi WwW — yn) 
n=1 ne=1 


T 


X{1 WO— yi1 
本 1 xz W — y2 
各 
XNW — YN 
2 
-- 邓 -- yh 
| 入 
-NWN ee se 
本 yw 


1 2 
= AI X ww- yl 
Nxd++1 d+1x1 Nx1 
然后 ， 对 于 此 类 线性 回归 问题 ， 五 (由 ) 一 般 是 个 凸 函数 。 思 函数 的 话 ， 我 们 只 要 找到 


一 阶 导 数 等 于 零 的 位 置 ， 惑 找到 了 最 优 解 。 那 么 ， 我 们 将 马 v 对 每 个 
wii 二 0, 1,.……, d 求 偏 导 ， 偏 导 为 零 的 w;， 即 为 最 优化 的 权重 值 分 布 。 


. Ne 1 六 
min En(w) = HXw —yl 





。 En(w): continuous, differentiable, convex 
。 Necessary condition of best w 








En Frm (W) 0 
VE(w) = a ly 
35(w) | | 0 


一 not possible to ‘roll down 


task: find wun such that VEn(win)=0 | 
根据 梯度 的 思想 ， 对 ,进行 矩阵 话 求 偏 导 处 理 : 
The Gradient V Ein(W) 


1 1 
En(w)= NXw— yl = (a 一 2w7 XIy + "| 
A b C 





En(w)== 己 (wTAw — 2w’'b+ c) 
VEn(W)=N (2AwW — 2b) 


En(w)=# (aw? — 2bw + c) 
VEn(w)=N (2aw — 2b) 





similar (derived by definition) 


VEn(w) = (X'Xw—X’y) | 


令 偏 导 为 零 ， 最 终 可 以 计算 出 权重 向 量 ww 为 : 


simple! :-) 


Optimal Linear Regression Weights 
task: find wuN such that 和 (X'XwW— XYy) = VEn(W) = 0 


。 easy! unique solution emany optimal solutions 


Ee e one of the solutions 
WIIN 三 (x7X) x y 
一 
pseudo-inverse xi 


WUuN 三 Xiy 


by defining XT in other ways 
e often the case because 
NS>d+1 





practical suggestion: 
use well-implemented 1 routine 
instead of (XTX)™ XT 
for numerical stability when almost-singular 





最 终 ， 我 们 推导 得 到 了 权重 向 量 w = (X7 X)-1XTVY， 这 是 上 文 提 到 的 closed-form 
解 。 其 中 ，(X7 和) 开 7 又 称 为 伪 道 矩阵 pseudo-inverse， 记 为 X+ ， 维 度 是 
(d+1)xN。 


但 是 ， 我 们 注意 到 ， 伪 逆 和 矩阵 中 有 道 矩 阵 的 计算 ， 逆 矩阵 (X! 乱 ) ! 是否 一 定 存在 ? 一 
般 情 况 下 ， 只 要 满足 样本 数量 N 远 大 于 样本 特征 维度 d+1， 就 能 保证 矩阵 的 逆 是 人 存在 
的 ， 称 之 为 非 奇异 矩 阵 。 但 是 如 果 是 奇异 矩阵， 不 可 六 怎么 办 呢 ? 其 实 ， 大 部 分 的 计 
算 逆 矩阵 的 软件 程序 ， 都 可 以 处 理 这 个 问题 ， 也 会 计算 出 一 个 逆 算 阵 。 所 以 ， 一 般 伪 
逆 和 矩阵 是 可 解 的 。 


三 、 泛 化 问题 


现在 ， 可 能 有 这 样 一 个 疑问 ， 就 是 这 种 求解 权重 向 量 的 方法 是 机 器 学 习 吗 ?或 者 说 这 
种 方法 满足 我 们 之 前 推导 VC Bound， 即 是 否 泛 化 能 力 强 Bi 守 Bj? 


ls Linear Regression a _ Learning Algorithm ? 


WULIN 二 Xiy | 


。 analytic (closed-form) 。 good Ein? 
solution, ‘instantaneous yes, optimal! 
。 not improving Ein Nor e good Eout? 


yes, finite ovc like perceptrons 
e improving iteratively? 

somewhat, within an iterative 

pseudo-inverse routine 


Eout iteratively 





if Eout (Wn) is good, learning ‘happened’! | 


有 两 种 观点 : 1、 这 不 属于 机 器 学 习 范 畴 。 因 为 这 种 closed-form 解 的 形式 跟 一 般 的 机 器 
学 习 算法 不 一 样 ， 而 且 在 计算 最 小 化 误差 的 过 程 中 没有 用 到 迭代 。2、 这 属于 机 器 学 习 
范畴 。 因 为 从 结果 上 看 ， 丈 im， 和 五 都 实现 了 最 小 化 ， 而 且 实 际 上 在 计算 逆 和 矩阵 的 过 

程 中 ， 也 用 到 了 迭代 。 


其 实 ， 只 从 结果 来 看 ， 这 种 方法 的 确实 现 了 机 器 学 习 的 目的 。 下 面 通过 介绍 一 种 更 简 
单 的 方法 ， 证 明 linear regression 问 题 是 可 以 通过 线 下 最 小 二 乘法 方法 计算 得 到 好 的 
Hy 和 已 ou 的 。 


Benefit of Analytic Solution: 
Simpler-than-VC Guarantee 





En = En{ En(wn Wrt. D)} 1 pe Sown noise level. (1 — 上!) 
Eown)= ly 9 | = ly-xxiyle 
Im LIN N N 
predictions WLIN 
1 
人 
二 Nl(. I_ —XX')yll 
identity 





一 一 | 
call XXi the hat matrix H 
because it puts 人 ony 
首先 ， 我 们 根据 平均 误差 的 思想 ， 把 Bi,, (wrrn ) 写 成 如 图 的 形式 ， 经 过 变换 得 到 : 
要 1 _ 十 2 二 2 
En(wrNn)= (1 XX yl = (7 Hy 


我 们 称 叉 允 ” 为 帽子 矩 了 咱 ， 用 H 表 示 。 
下 面 从 几何 图 形 的 角度 来 介绍 帽子 矩阵 H 的 物理 意义 。 


Geometric View of Hat Matrix 


span of X 










。 Y= XWwLn within the span of X columns 
。y—ysmallest:y—y 1 span 

e。 H: project y to y € span 

e。 I—H:transformytoy—y 1 span 


claim: trace(I — H) = N— (d+1). Why? :-) | 


图 中 ，y 是 N 维 空间 的 一 个 向 量 ， 粉 色 区 域 表示 输入 矩阵 X 乘 以 不 同 权 值 向 量 w 所 构成 的 
空间 ， 根 据 所 有 w 的 取 值 ， 了 预测 输出 都 被 限定 在 粉色 的 空间 中 。 向 量 Y 就 是 粉色 空间 中 
的 一 个 向 量 ， 代 表 预 测 的 一 种 。y 是 实际 样本 数据 输出 值 。 


机 器 学 习 的 目的 是 在 粉色 空间 中 找到 一 个 y， 使 它 最 接近 真实 的 y， 那 么 我 们 只 要 将 y 在 
粉色 空间 上 作 垂 直 投 影 即 可 ， 投 影 得 到 的 Y 即 为 在 粉色 空间 内 最 接近 y 的 向 量 。 这 样 即 
使 平均 误差 刀 最 小 。 


从 图 中 可 以 看 出 ， 攻 是 y 的 投影 ， 已 知 Y = 且 y， 那 么 H 表 示 的 就 是 将 y 投 影 到 9 的 一 种 
操作 。 图 中 绿色 的 箭头 y 一 是 向 量 y 与 jy 相 减 ，y 一 三 直 于 粉色 区 域 。 已 知 

(了 一 五 )y = y 一 9 那么 -H 表 示 的 就 是 将 y 投 影 到 y 一 多 即 垂直 于 粉色 区 域 的 一 种 操 
作 。 这 样 的 话 ， 我 们 惑 赋予 了 H 和 |I-H 不 同 但 又 有 联系 的 物理 意义 。 


这 里 trace(I-H) 称 为 |-H 的 迹 ， 值 为 N-(d+1)。 这 条 性 质 很 重要 ， 一 个 和 矩阵 的 trace 等 于 该 
矩阵 的 所 有 特征 值 (Eigenvalues) 之 和 。 下 面 给 出 简单 证 明 : 


trace(T — H) = 如 ace(T) — trace(lH) 
=N—trace(XXt+)= N— trace(X(XTX) XT 
=N—trace(X'X(XTX) 1!)= N— trace(lari 
=N—(d+1) 


介绍 下 该 I-H 这 种 转换 的 物理 意义 : 原来 有 一 个 有 NN 个 自由 度 的 向 量 y， 投 影 到 一 个 有 
d+1 维 的 空间 x (代表 一 列 的 自由 度 ， 即 单一 输入 样本 的 参数 ， 如 图 中 粉色 区 域 ) ， 而 


余数 剩余 的 自由 度 最 大 只 有 N-(d+1) 种 。 
在 存在 noise 的 情况 下 ， 上 图 变 为 : 


An lllustrative “Proof 


span of X 





。 ify comes from some ideal f(X) € span plus noise 
。 noise transformed byI— Htobey—y 


1 R Ee 
En(Win)= Ny -YI = wl(l~ IDnoisel 
= WN(N-(d+1))lnoisel’ 
En = noise level. (1 — 往 !) 
Eut = noise level . (1 + 上 时 !) (complicated!) 


图 中 ， 粉 色 空 间 的 红色 箭头 是 目标 函数 f(x)， 虚 线 箭头 是 noise， 可 见 ， 真 实 样本 输出 y 
由 f(x) 和 noise 相 加 得 到 。 由 上 面 推导 ， 已 知 向 量 y 经 过 |-H 转 换 为 y 一 尹 ， 而 noise 与 y 是 
线性 变换 关系 ， 那 么 根据 线性 函数 知识 ， 我 们 推导 出 noise 经 过 I-H 也 能 转换 为 y 一 9。 
则 对 于 样本 平均 误差 ， 有 下 列 推导 成 立 : 


1 1 i 1 . 
En (wn) = ly -9 = I(T- H)noisel? = H(N ~ (d+ 1))lInoisell? 


即 
万 di+1l 
noiselevel * ( ne 
同样 ， 对 jwt 有 如 下 结论 : 
万 Q 十 1 
五 ou = noiselevel * (1 十 二 


这 个 证 明 有 点 复杂 ， 但 是 我 们 可 以 这 样 理解 : 万; 与 万 ww 形 式 上 只 差 了 二 江 项， 从 哲 


a 加 ;是 我 们 看 得 到 的 样本 的 平均 误差 ， 如 果 有 noise， 我 们 把 预测 往 noise 那 


> 


边 偏 一 点 ， 让 万 ,好 看 一 点 点 ， 所 以 减 去 刀 t 项 。 那 么 同时 ， 新 的 样本 万 。: 是 我 们 看 
不 到 的 ， 如 果 noise 在 反方 向 ， i 上 CD Ca 





我 们 把 轧 i 与 万 wwt 画 出 来 ， 得 到 学 习 曲 线 : 


The Learning Curve 








Eout = noise level. (1 + 芝 ) 


外 


十 N 
= noise level. (1- 策 !) 


Expected Error 





+1 Number of Data Points, N 


»。 both converge to o? (noise level) for N 一 co 


。expected generalization error: 4%" 


一 Similar to worst-case guarantee from VC 


linear regression (LinReg): 
learning ‘happened’! 


当 N 足 够 大 时 ， 思 ;, 与 思 jwt 逐渐 接近 ， 满 足 瓦 ;。 owt， 且 数值 保持 在 noise level。 
这 就 类 似 VC 理 论 ， 证 明了 当 N 足 够 大 的 时 候 ， 这 种 线性 最 小 二 乘法 是 可 以 进行 机 器 学 
习 的 ， 算 法 有 效 ! 


四 、Linear Regression 方 法 解决 Linear Classification 问 题 


之 前 介绍 的 Linear Classification 问 题 使 用 的 Error Measure 方 法 用 的 是 0/1 error， 那 么 
Linear Regression 的 squared error 是 否 能 够 应 用 到 Linear Classification 问 题 ? 


Linear Classification vs. Linear Regression 


Linear Classification Linear Regression 


了 古寺 = 
h(x) = sign(w’x) h(x) = w7x 
er(9,y) = [Yl er(y,y) = (9—y) 


NP-hard to solve in general 





efficient analytic solution 


{—1,+1} C R: linear regression for classification? 


@ run LinReg on binary classification data D (efficieni) 
@ return g(x) = sign(wNX) 


but explanation of this heuristic? | 


下 图 展示 了 两 种 错误 的 关系 ， 一 般 情 况 下 ，squared error 曲 线 在 0/1 error 曲 线 之 上 。 即 


e77T0/1 < erTsgr. 


Relation of Two Errors 


erro/1 = |sign(w"x) y| errsqr = (wrx 四 





desired y = 1 desired y = 一 1 
一 Squared 
一 0/1 
err err 
Ww'x WwW'x 
erro/1 < erTsqr | 


根据 之 前 的 VC 理论 ，Eowt 的 上 界 满足 : 


Linear Regression for Binary Classification 


erro/1 < errsqr 





VC 
classification Eout(w) < classification 后 n(w) 十 
< regression Ein(W)+ 


。 (loose) upper bound errsqr as ért to approximate erro /1 
。 trade bound tightness for efficiency 


WuN: Useful baseline classifier, 
or as initial PLA/pocket vector 


从 图 中 可 以 看 出 ， 用 er7sqr 代 蔡 err0j1 ， 五 ou 仍然 有 上 界 ， 只 不 过 是 上 界 变 得 宽松 
了 。 也 就 是 说 用 线性 回归 方法 仍然 可 以 解决 线性 分 类 问题 ， 效 果 不 会 太 差 。 二 元 分 类 
问题 得 到 了 一 个 更 宽松 的 上 界 ， 但 是 也 是 一 种 更 有 效率 的 求解 方式 。 


五 、 总 结 


本 节 课 ， 我 们 主要 介绍 了 Linear Regression。 首 先 ， 我 们 从 问题 出 发 ， 想 要 找到 一 条 
直线 拟 合 实际 数据 值 ; 然后 ， 我 们 利用 最 小 二 乘法 ， 用 解析 形式 推导 了 权重 w 的 
closed-form 解 ; 接着 ， 用 图 形 的 形式 得 到 瓦 。w 一 Ein, 完 证 明了 linear 
regression 是 可 以 进行 机 器 学 习 的 ，; 最 后 ， 我 们 证 明 linear regressin 这 种 方法 可 以 用 
在 binary classification 上 ， 昌 然 上 界 变 宽松 了 ， 但 是 仍然 能 得 到 不 错 的 学 习 方 法 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《 机 器 学 习 基 石 》 课 程 


